查看原文
其他

与Sora同架构!Stable Diffusion 3文生图模型惊艳亮相,对比实测来了

石濑 头号AI玩家 2024-03-10


作者 | 石濑 月山橘
编辑 | 卷毛


Stability AI开大了。


在OpenAI文生图模型Sora连续刷屏一周后,昨晚,Stability AI正式推出Stable Diffusion 3早期预览版,并表示这是他们迄今为止最强大的文本生成图像模型,在多主题提示、图像质量和文本渲染能力方面均有显著提升。



与之前版本相比,Stable Diffusion 3最为亮眼的提升之一,是其对图中文字生成的控制力这也是为什么,官方发布的很多demo图都包含文字展示:‍‍




去年圣诞,我们要求DALL-E 3在生成的图片中包含文字“我的心愿”,结果仍是“鬼画符”似的乱码效果。可以说,Stable Diffusion 3这波在语言理解上狠狠秀了一波肌肉。

DALL·E 3生成文字的效果


同时,Stability AI官方表示,Stable Diffusion 3是一个模型系列,参数量从800M到8B不等,提供多样化的可扩展性和图像质量选项,以满足不同用户的创意需求。

换句话说,Stable Diffusion 3未来能够在多种设备上运行,大大降低了各位玩家使用AI模型的硬件门槛

目前,Stable Diffusion 3已开放候补名单,想要第一时间体验的玩家,可以前往申请访问权限(链接已整理放在文末)。

需要补充的是,Stable Diffusion 3尚未全面开放,技术报告和权重也没有公布。本文中展示的图片和提示词,来源于Stability AI官方账号及其团队成员发布在X(前推特)上的帖子。



Stable Diffusion 3发布,

其他文生图模型还能打吗?


文生图领域,Stable Diffusion的主要竞争对手无疑是MidjourneyDALL·E。下面我们不妨用相同的提示词,上手实测看看各家目前表现如何(Midjourney用的是V6模型,DALL·E用的是集成在ChatGPT4中的DALL·E 3)。


1.文字渲染能力。


提示词:史诗般的动画艺术作品,一位巫师在夜间在山顶上向黑暗的天空施放宇宙咒语,上面写着由彩色能量制成的“Stable Diffusion 3”。


Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy.



由Stable Diffusion3生成

由DALL·E 3生成


由Midjourney生成


组对比中,DALL·E 3没有按照提示词要求在图中生成完整的文字,Midjourney则通过调整参数、抽卡式地生成了一张带有完整文字的图片。


再来看一组写实图片。


提示词:厨房的桌子上放着一块绣花布,上面写着“晚安”和一只绣着的小老虎。布旁边有一支点燃的蜡烛。灯光昏暗而引人注目。


Prompt: Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.

由Stable Diffusion3生成

 

由DALL·E 3生成

 

由Midjourney生成


这次DALL·E 3生成的图,乍眼看,有模有样的,但仔细看会发现“good”单词中多了一个“o”,整体字体也不够统一。


Midjourney则开始“已读乱回复”,要么生成“鬼画符”,要么干脆直接上真·老虎,主打一个随机抽卡。


2.多主题提示能力


多主题提示,即支持用户输入的提示词中包括多种元素。例如⬇️


提示词:一幅宇航员骑着一只穿着芭蕾舞短裙、撑着粉色雨伞的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,角落里写着“stable diffusion”


Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"



由Stable Diffusion3生成


以上这张图中就包括“宇航员”“穿芭蕾舞裙的小猪”“带着礼帽的知更鸟”等元素,就连左下角的Stable Diffusion水印都是一键生成的。


DALL·E 3这次生成了一张非常炸裂的图,十分直观地展示了AI的缝合怪能力。


大家别眨眼,我放图了。


由DALL·E 3生成


相比Stable Diffusion 3,Midjourney生成的图片风格更像“末日风”主题。虽然包括了提示词要求的所有元素,但芭蕾短剧却穿在了宇航员的身上。



由Midjourney生成


3.超清特写


图像生成质量上,Stability AI放出的超清变色龙特写,吸引了不少网友关注讨论。


提示词:工作室摄影特写,一条变色龙在黑色背景上。


Prompt: studio photograph closeup of a chameleon over a black background.


由Stable Diffusion3生成

那么,这类型图上Midjourney和DALL·E 3表现如何呢?


由DALL·E 3生成

由Midjourney生成


仅从图片生成效果上看,两家表现都不错。DALL·E 3生成的图像分辨率通常是1024x1024,Midjourney V6则可以达到2048x2048的2K分辨率。


DALL·E 3可以支持对清晰度要求不高的短视频创作,而在专业的商业视觉内容生产中,就需要上Midjourney V6了。


截至目前,Stability AI没有说明Stable Diffusion 3在图像质量上优化了多少,但从官方放出的demo图来看,应该跑不了在分辨率色彩饱和度上有所提升。


而对于Stable Diffusion 3基于安全原因没有公开发布,也有X网友得到了Stability AI CEO的回复。



简单理解,和Sora、Pika套路一样,先发文吊着大家胃口,等研究人员、专家测试反馈优化后,才会正式面向公众开放。



炙手可热的Sora同源架构


除了文本生成图像模型的大幅更新,Stability AI的视频产品Stable Video也在近期开放公测。只不过撞上了Sora发布的枪口,讨论度不算高。
 

 


而Stable Diffusion 3的发布算是为Stability AI扳回了一城。

有趣的是,Stable Diffusion 3和Sora一样采用了diffusion transformer架构,似乎由此获得了和Sora一样“理解和模拟物理现实”的能力。


深度学习专家李沐最近在B站发布动态表示,Sora模型与前作DiT相比可能变化不大,但使用了几百倍的算力。“这种demo效果拉满的应用,相信学术界和开源界会很快跟进。”


可以说,各家激烈竞争下,AIGC赛道愈发有看头了,预测今年我们又会迎来许多令人兴奋的时刻。

后续可以期待一波Sora和Stable Diffusion 3公开发布,头号AI玩家也会持续关注文生图、文生视频等多模态领域的进展,欢迎评论区留言你最想看的AIGC产品测评。


Stable Diffusion 3官网:https://stability.ai/stablediffusion3

Stable Diffusion 3博客:https://stability.ai/news/stable-diffusion-3

《Scalable Diffusion Models with Transformers》论文:

https://arxiv.org/abs/2212.09748





「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。


也欢迎围观小红书@头号AI玩家,我们在这里日常练习AI绘画。


欢迎分享、点赞、在看

 一起研究AI

继续滑动看下一个

与Sora同架构!Stable Diffusion 3文生图模型惊艳亮相,对比实测来了

石濑 头号AI玩家
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存